手寫(xiě)體檔案的識(shí)別率普遍較低。不宜進(jìn)行OCR識(shí)別。因此本文所述OCR的對(duì)象僅指印刷體檔案。要提高OCR識(shí)別率。關(guān)鍵應(yīng)注意以下幾點(diǎn):
1.選擇較好的OCR軟件
目前市場(chǎng)上比較流行的OCR軟件很多,主要有清華文通、漢王、泰比等品牌。其中有些可以從網(wǎng)上下載免費(fèi)版本但功能很少,識(shí)別率很低。只有在圖像質(zhì)量非常好的情況下才能達(dá)到較高的識(shí)別率,稍有差池便錯(cuò)誤百出,畢竟一分價(jià)錢(qián)一分貨。用在項(xiàng)目中還需謹(jǐn)慎再謹(jǐn)慎。還有的是掃描儀自帶的OEM軟件,如丹青、蒙恬等這樣的軟件往往功能較少,識(shí)別率較專(zhuān)業(yè)的OCR軟件要低。所以,對(duì)于檔案數(shù)字化過(guò)程中的批量OCR處理工作,若要用得省心、放心必須購(gòu)買(mǎi)和使用專(zhuān)業(yè)的OCR軟件。建議使用清華文通專(zhuān)業(yè)OCR軟件,雖然要花點(diǎn)錢(qián),但物有所值。
2.設(shè)置合適的掃描參數(shù)
檔案數(shù)字化若要進(jìn)行OCR處理,在前期掃描的時(shí)候就應(yīng)設(shè)置適合OCR識(shí)別的掃描參數(shù)。如果已經(jīng)掃描完畢再說(shuō)要進(jìn)行OCR處理,就應(yīng)采用相關(guān)圖像處理軟件。如Photoshop等,先對(duì)圖像的參數(shù)進(jìn)行修改再OCR。合適的掃描參數(shù)能使圖像質(zhì)量更貼近于OCR識(shí)別的要求,OCR識(shí)別率自然會(huì)有很大程度的提高。
①分辨率的設(shè)定。分辨率太小,每英寸圖像上像素點(diǎn)太少,OCR軟件無(wú)法獲得足夠圖像信息,識(shí)別率當(dāng)然就不會(huì)高。但是,并不是分辨率越高,OCR識(shí)別率也越高。分辨率太高,特別是在使用一些存在輕微掃描失真的掃描儀時(shí),由于紙張本身著墨不均勻,反而會(huì)把一些本應(yīng)連著的筆畫(huà)識(shí)別成幾段,造成識(shí)別錯(cuò)誤。不僅不能提高識(shí)別率,還會(huì)使圖像文件變得很大,不利于存儲(chǔ)、處理和傳輸。《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》規(guī)定,需要進(jìn)行OCR漢字識(shí)別的檔案掃描分辨率建議選擇200-300dpi最佳。
但是在實(shí)際工作中,200dpi還是有點(diǎn)小,經(jīng)驗(yàn)表明300dpi在OCR識(shí)別中最為合適。有的掃描軟件有一項(xiàng)“OCR掃描”直接將掃描分辨率鎖定為300dpi2色彩模式的選擇如果要進(jìn)行OCR識(shí)別,采用黑白二值模式掃描的圖像,其識(shí)別速度和正確率比灰度、24位真彩,C24模式掃描的圖像都要高。這是因?yàn)槲谋就ǔV挥玫胶诎锥^(guò)多的顏色只會(huì)變成干擾信息。
灰度模式在OCR中的應(yīng)用也比較廣泛。對(duì)于一些紙張發(fā)黃或文字字跡較淡的檔案,要對(duì)掃描后的圖像進(jìn)行處理,第一步可將色彩模式設(shè)置為灰度,將圖像劃分為不同的灰度級(jí)別,然后通過(guò)特定算法將某個(gè)灰度值以下的像素點(diǎn)都認(rèn)定為白色,其他為黑色從而達(dá)到黑白分明。一些紙張較薄甚至有點(diǎn)透明的檔案,OCR會(huì)受到背面文字的干擾而識(shí)別率降低。如果掃描時(shí)在紙張背面墊一張黑紙,并使用灰度掃描,效果會(huì)好很多。而采用24位真彩,C24模式掃描的圖像,由于顏色干擾信息太多,識(shí)別率往往不太理想。若要進(jìn)行OCR,最好先轉(zhuǎn)化為黑白二值或灰度模式再加以識(shí)別。
?②亮度和對(duì)比度的調(diào)節(jié)
檔案由于年代久遠(yuǎn),很多都會(huì)底色發(fā)黃、字跡變淡,掃描時(shí)設(shè)置灰度模式,并不能完全改善圖像質(zhì)量。若要進(jìn)一步提高OCR識(shí)別率,需改變更多參數(shù),即調(diào)節(jié)亮度和對(duì)比度,且應(yīng)先調(diào)亮度再調(diào)對(duì)比度。亮度的設(shè)定以觀察掃描后的圖像中漢字的筆畫(huà)較細(xì)但又不斷開(kāi)為原則。
③對(duì)于文字字跡。較淺、筆劃較細(xì)的檔案,可適當(dāng)降低亮度,文字字體較小、筆劃較粗的檔案,可適當(dāng)增加亮度。對(duì)于底色較深的檔案,如前文所提灰度模式掃描的圖像,可通過(guò)圖像處理軟件增加亮度,使圖像背景變成白色,同時(shí)去除了一些原有的污點(diǎn)。但調(diào)節(jié)亮度的同時(shí),必然會(huì)使圖像中的文字一起變淡。這時(shí)便要增加圖像對(duì)比度使文字的顏色變深。
通過(guò)亮度和對(duì)比度的調(diào)節(jié),可使圖像變得更加黑白分明,從而有利于OCR識(shí)別率的提高。
④對(duì)圖像進(jìn)行糾偏、去污處理
圖像中文字的偏斜,會(huì)極大地降低OCR識(shí)別率,筆者曾經(jīng)做過(guò)實(shí)驗(yàn),一張只是略微有點(diǎn)歪的圖像,其識(shí)別率比糾偏之后至少低了10%。而圖像中的污點(diǎn),也很有可能被OCR錯(cuò)誤識(shí)別為文字。因此,在OCR識(shí)別前,圖像必須經(jīng)過(guò)糾偏、去污處理,以提高識(shí)別率。通常,檔案掃描工作流程中必須具備圖像糾偏、去污這一環(huán)節(jié),而無(wú)論其是否要進(jìn)行OCR。
⑤仔細(xì)進(jìn)行人工校對(duì)
無(wú)論電腦有多聰明,始終比不過(guò)人腦。因此,人工校對(duì)是提高OCR識(shí)別率的最后一關(guān),也是最直接的環(huán)節(jié)。通常,OCR軟件識(shí)別完后會(huì)將原文用兩行顯示。一行是圖像,另一行是識(shí)別結(jié)果。一些OCR軟件。如文通OCR,會(huì)將不確定的文字用另一種顏色顯示出來(lái),便于用戶(hù)發(fā)現(xiàn)錯(cuò)誤。但實(shí)驗(yàn)表明,很多情況下沒(méi)有變色的文字也會(huì)出錯(cuò),相反變了色的文字并不一定是錯(cuò)的。因此,工作人員在校對(duì)時(shí)應(yīng)仔細(xì),最好能通讀一遍,尤其注意字母和數(shù)字等較易出錯(cuò)的地方,盡量不放過(guò)任何錯(cuò)誤。
當(dāng)然,人工校對(duì)是建立在OCR識(shí)別率本身就已很高的基礎(chǔ)上的,它只是一個(gè)提高OCR識(shí)別率的補(bǔ)充環(huán)節(jié)。否則過(guò)多的人工校對(duì)只會(huì)降低檔案數(shù)字化工作的效率使OCR變得與手工錄入無(wú)異。
只有將OCR技術(shù)運(yùn)用得恰到好處,才不至于浪費(fèi)人力物力,才能使檔案信息資源的利用價(jià)值達(dá)到最大化,更好地服務(wù)于民。
更多檔案數(shù)字化設(shè)備詳情咨詢(xún)“成都吉福匯”,400-028-4366/028-85538251